Phương pháp bayesian là gì? Các bài báo nghiên cứu khoa học
Phương pháp Bayesian là khuôn khổ thống kê sử dụng xác suất biểu diễn niềm tin về tham số, cập nhật khi có dữ liệu mới qua công thức Bayes. Công thức Bayes lần đầu được xuất bản năm 1763 sau khi Thomas Bayes qua đời, sau này Laplace mở rộng tạo nền tảng cho xác suất Bayes hiện đại.
Định nghĩa và lịch sử phát triển
Phương pháp Bayesian là khuôn khổ thống kê dựa trên xác suất nhằm biểu diễn mức độ tin cậy (belief) về các tham số hoặc giả thuyết sau khi quan sát dữ liệu. Khác với cách tiếp cận tần suất (frequentist) chỉ dựa vào xác suất của dữ liệu cho trước tham số cố định, Bayesian coi tham số là biến ngẫu nhiên có phân phối tiên nghiệm (prior) và cập nhật thông tin qua phân phối hậu nghiệm (posterior).
Tiền đề lý thuyết do Thomas Bayes (1702–1761) đưa ra trong bức thư gửi tới Hiệp hội Hoàng gia Anh và được xuất bản sau khi ông mất năm 1763. Sau đó, Pierre-Simon Laplace mở rộng công thức Bayes, ứng dụng vào thiên văn và dân số học, hình thành nền tảng cho xác suất Bayes hiện đại. Việc phát triển MCMC vào thập niên 1950–1970 đã mở ra khả năng tính toán hậu nghiệm cho các mô hình phức tạp, đưa Bayesian trở thành phương pháp phổ biến trong khoa học và kỹ thuật.
- 1763: Bayes xuất bản “An Essay towards solving a Problem in the Doctrine of Chances”.
- 1812: Laplace hoàn thiện công thức và áp dụng trong thiên văn học.
- 1953–1970: Hình thành các thuật toán MCMC (Metropolis–Hastings, Gibbs sampling).
Cơ sở lý thuyết: công thức Bayes
Công thức Bayes cho phép tính phân phối hậu nghiệm P(θ|D) từ tiên nghiệm P(θ) và hàm khả năng P(D|θ) thông qua biểu thức:
Trong đó, P(θ) thể hiện kiến thức hoặc niềm tin ban đầu về tham số θ trước khi quan sát dữ liệu D, P(D|θ) là xác suất quan sát dữ liệu cho trước tham số, và P(D) đóng vai trò chuẩn hóa để phân phối hậu nghiệm tích phân bằng 1. Phần mẫu chuẩn hóa P(D) còn gọi là evidence, dùng để so sánh mô hình.
Trực quan hóa bằng đồ họa đồ thị (graphical model) giúp biểu diễn mối quan hệ giữa tham số, dữ liệu và biến tiềm ẩn, đồng thời hỗ trợ suy diễn (inference) hiệu quả. Ví dụ dưới đây minh họa mô hình hai cấp (hierarchical model) đơn giản với biến tiềm ẩn z và dữ liệu x:
- Nodes: θ, z, x
- Edges: θ → z → x
- Đồ thị cho biết z phụ thuộc vào θ, x phụ thuộc vào z.
Phân phối tiên nghiệm (Prior) và hậu nghiệm (Posterior)
Tiên nghiệm (prior) P(θ) là phân phối biểu diễn mức độ tin cậy ban đầu. Chọn prior không thông tin (non-informative) giúp phản ánh thiếu hiểu biết, trong khi informative prior tích hợp kiến thức chuyên môn. Lựa chọn prior ảnh hưởng trực tiếp đến kết quả posterior, đặc biệt khi dữ liệu hạn chế.
Các dạng prior thuận toán học (conjugate priors) giúp phân phối hậu nghiệm cùng loại với prior, rút gọn phép tính. Ví dụ Beta-Binomial và Gamma-Poisson là cặp conjugate thường dùng:
Mô hình dữ liệu | Prior | Posterior |
---|---|---|
Bernoulli/Binomial | Beta(α, β) | Beta(α + x, β + n − x) |
Poisson | Gamma(α, β) | Gamma(α + Σxᵢ, β + n) |
Gaussian với σ² biết | Normal(μ₀, τ₀²) | Normal(μₙ, τₙ²) |
Phân phối hậu nghiệm (posterior) P(θ|D) tổng hợp thông tin từ prior và dữ liệu. Khi posterior không có dạng đóng, cần dùng thuật toán xấp xỉ như MCMC hoặc biến phân (Variational Inference) để thu được mô tả gần đúng.
Ước tính tham số và dự báo
Ước tính điểm (point estimate) phổ biến gồm MAP (Maximum A Posteriori) và posterior mean. MAP tìm θ tối đa hóa P(θ|D), tương tự như ước tính tối đa hóa hàm khả năng kèm prior. Posterior mean cho giá trị trung bình của phân phối hậu nghiệm, phản ánh ’trung tâm khối lượng’ của niềm tin.
Khoảng tin cậy Bayes (credible interval) biểu diễn khoảng giá trị chứa tham số với xác suất nhất định (ví dụ 95%). Khác với confidence interval của frequentist, credible interval có giải thích trực tiếp: “có 95% xác suất θ nằm trong khoảng này”.
Dự báo Bayes (predictive distribution) cho giá trị mới ŷ dựa trên tích phân mọi giá trị θ có thể:
- Dự báo điểm: thường là posterior predictive mean.
- Dự báo khoảng: posterior predictive interval.
- Ứng dụng trong phân tích chuỗi thời gian, học máy và thử nghiệm lâm sàng.
Mô hình Bayes đồ thị (Bayesian Networks)
Mô hình Bayes đồ thị (Bayesian Network) là biểu diễn phân phối xác suất chung của một tập hợp biến ngẫu nhiên thông qua đồ thị có hướng (Directed Acyclic Graph – DAG). Mỗi nút (node) trong DAG tương ứng với một biến ngẫu nhiên, và các cung (edge) biểu thị quan hệ phụ thuộc điều kiện giữa các biến. Việc sử dụng cấu trúc đồ thị giúp giảm độ phức tạp tính toán phân phối đa biến bằng cách phân tách phân phối chung thành tích các phân phối biên và phân phối có điều kiện nhỏ hơn.
Suy diễn (inference) trong mạng Bayes bao gồm hai dạng chính: suy diễn điều kiện (conditional inference) để tính P(A|B) khi một số biến quan sát được, và suy diễn tối đa (MAP inference) để tìm cấu hình biến khiến xác suất hậu nghiệm lớn nhất. Thuật toán phổ biến cho inference là variable elimination, belief propagation và junction tree, cho phép tính toán hiệu quả khi đồ thị không quá lớn hoặc có cấu trúc thuận lợi.
- Variable Elimination: loại biến không quan sát bằng quy tắc phân phối có điều kiện.
- Belief Propagation: truyền tin (message passing) trên cây hội tụ (junction tree).
- Approximate Inference: Monte Carlo sampling khi DAG phức tạp.
Thuật toán tính toán hậu nghiệm
Khi posterior P(θ|D) không có dạng đóng, phương pháp Markov Chain Monte Carlo (MCMC) được sử dụng để sinh mẫu gần đúng. Trong đó, thuật toán Metropolis–Hastings đề xuất mẫu θ′ theo phân phối đề xuất q(θ′|θ) và chấp nhận hoặc bác bỏ dựa trên tỉ lệ chấp nhận: Gibbs sampling là trường hợp đặc biệt của Metropolis–Hastings, cập nhật lần lượt từng thành phần của θ thông qua phân phối biên có điều kiện.
Biến phân (Variational Inference – VI) là phương pháp xấp xỉ posterior bằng cách tối ưu hóa tham số của phân phối đơn giản q(θ;φ) sao cho gần gũi nhất posterior gốc, thông qua tối thiểu hóa Kullback–Leibler divergence. VI thường nhanh hơn MCMC nhưng có thể không bắt được đa dạng phân bố đa cực hoặc đuôi dày.
Thuật toán | Chính xác | Tốc độ | Ưu điểm | Nhược điểm |
---|---|---|---|---|
MCMC (Metropolis–Hastings) | Cao | Chậm | Kết quả xấp xỉ chính xác | Tốn thời gian, khó hội tụ |
Gibbs Sampling | Trung bình–Cao | Trung bình | Thuật toán đơn giản | Chỉ áp dụng khi điều kiện dễ tính toán |
Variational Inference | Trung bình | Nhanh | Thích hợp mô hình lớn | Có thể bỏ sót đa mô thức |
Kiểm định mô hình và so sánh mô hình
Bayes factor (BF) là tỉ số evidence giữa hai mô hình M₁ và M₂, định nghĩa: Giá trị BF > 1 ủng hộ mô hình M₁, ngược lại BF < 1 ủng hộ M₂. BF được tính qua tích phân đa chiều, thường xấp xỉ bằng MCMC hoặc Laplace approximation.
Thông tin đánh giá mô hình khác gồm WAIC (Widely Applicable Information Criterion) và LOO-CV (Leave-One-Out cross-validation) dựa trên log-likelihood hậu nghiệm, cung cấp thước đo phạt cho độ phức tạp mô hình, giúp lựa chọn mô hình cân bằng giữa khớp dữ liệu và đơn giản hóa.
- WAIC: tổng hợp mức độ khớp và số lượng tham số hiệu quả.
- LOO-CV: ước lượng thực nghiệm bằng việc lặp lại huấn luyện và kiểm tra.
- Posterior Predictive Checks: so sánh dữ liệu mô phỏng với dữ liệu quan sát để đánh giá tính hợp lý.
Ưu điểm và hạn chế
Ưu điểm chính của phương pháp Bayesian là khả năng tích hợp thông tin tiên nghiệm, trực quan hóa không chắc chắn và linh hoạt xây dựng mô hình phức tạp. Bayesian cung cấp phân phối hậu nghiệm đầy đủ, không chỉ một giá trị ước tính duy nhất, giúp đánh giá rủi ro và ra quyết định mang tính probabilistic.
Hạn chế bao gồm tính toán tốn kém, đặc biệt khi không có công thức đóng; kết quả phụ thuộc vào lựa chọn prior; và thách thức trong mô hình khi làm việc với tập dữ liệu lớn hoặc không gian tham số cao chiều. Các phương pháp xấp xỉ và tăng tốc tính toán (GPU, distributed computing) đang phát triển để khắc phục nhược điểm này.
- Phụ thuộc prior: có thể gây thiên lệch nếu prior không phù hợp.
- Tính toán: MCMC lâu hội tụ, VI có thể không chính xác đủ.
- Khó thiết lập: đòi hỏi kiến thức sâu về xác suất và thuật toán.
Ứng dụng thực tiễn
Y học: Bayesian được FDA chấp thuận trong phân tích thử nghiệm lâm sàng, cho phép cập nhật dữ liệu trung gian và điều chỉnh thử nghiệm động (FDA Bayesian Guidance). Bayesian Networks hỗ trợ chẩn đoán và dự báo biến chứng từ dữ liệu bệnh nhân.
Tài chính: trong định giá tài sản và quản lý danh mục đầu tư, Bayesian inference hỗ trợ điều chỉnh liên tục khi thị trường biến động. Bayesian optimization là phương pháp hiệu quả để tối ưu tham số mô hình học máy và hyperparameter tuning (BayesOpt).
Trí tuệ nhân tạo: mô hình Gaussian Process Regression kết hợp Bayesian cung cấp ước lượng độ không chắc chắn cho dự báo chuỗi thời gian, ứng dụng trong tự lái và robotics. Bayesian Deep Learning mở rộng mạng nơ-ron truyền thống với trọng số ngẫu nhiên, giúp cải thiện tính ổn định và phòng chống overfitting.
Danh mục tài liệu tham khảo
- Friedman, N., & Koller, D. (2003). “Being Bayesian about network structure.” _Machine Learning_, 50(1-2), 95–125. https://doi.org/10.1023/A:1021717711681
- Vehtari, A., Gelman, A., & Gabry, J. (2017). “Practical Bayesian model evaluation using leave‐one‐out cross‐validation and WAIC.” _Statistics and Computing_, 27, 1413–1432. https://doi.org/10.1007/s11222-016-9696-4
- Robert, C.P., & Casella, G. (2004). _Monte Carlo Statistical Methods_ (2nd ed.). Springer. https://link.springer.com/book/10.1007/b98881
- Blei, D.M., Kucukelbir, A., & McAuliffe, J.D. (2017). “Variational Inference: A Review for Statisticians.” _Journal of the American Statistical Association_, 112(518), 859–877. https://doi.org/10.1080/01621459.2017.1285773
- Stan Development Team. (2024). _Stan Modeling Language Users Guide and Reference Manual_. https://mc-stan.org/users/documentation/
Các bài báo, nghiên cứu, công bố khoa học về chủ đề phương pháp bayesian:
- 1
- 2
- 3